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) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles In einem 
Spracherkennungssystem 

) Mit der Erfindung wird etna Methods mr Bestlmmung der 
Ahnlichkelten von La men fiber verechledene Sprachen hin- 
weg angegeben. Welterhln wird eln neuer Ansatz zur hidden 
Markov Modeliierung von murtilingualen Phonemen engege- 
ben. Bel der vorgeschtagenen Methods zur akusttech phone- 
tischen Modeliierung werden sowohl sprechspezrfische ats 
euch sprechunabhinglge Eigenschaften bei der Zusammen- 
f assung der WahrecheinlJchkeftsdichten fur unterschiedliche 
hidden Markov Lautmodelle in verschiedenen Sprachen 
angegeben. 
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Die Erfindung bezieht sich auf hidden Markov ModeOe fur Spracherkennungssysteme, wobei em solches 
ModeD fur mehrere Sprachen herangezogen werden sou, indem die akustischen und phonetischen Ahnfichkehen 
5 zwischen den unterschiedlichen Sprachen ausgenutzt werden. 

Ein Spracberkennungssystem fur mehrere Sprachen ist aus der WO 95/02879 Al bekannt 
Bei der Spracherkennung besteht ein groBes Problem darin, daB fur jede Spracfae in welche die Spracherken- 
nungstechnologie eingefuhrt werden soD, neue akustisch phonetische Mod ell e train iert werden mussen um eine 
Landeranpassung durchfuhren zu konnen. Meistens werden bei gangigen Spracherkennungssystemen hidden 
to Markov Modelle zur Modellierung der sprachspezirischen Laute verwendet Aus dies en statistisch modellierten 
LautmodeDen werden im AnschluB akustische Wortmodelle zusammengefugt, welche wahrend eines Such pro- 
cesses beim Spracherkennungsvorgang erkannt werden. Zum Training dieser Lautmodelle werden sehr umf ang- 
reiche Sprachdatenbanken benotigt, deren Sammlung und Aufbereitung einen auBerst kosten- und zeitintensi- 
ven ProzeB darsteDt Hierdurch entstehen Nachtefle bei der Portierung einer Spracherkennungstechnologie von 
is einer Sprache in eine weitere Sprache, da die Erstelhing einer neuen Sprachdatenbank einerseits eine Verteue- 
rung des Produktes bedeutet und andererseits eine zeithche Verzogerung bei der Markteinfuhrung bedingt 

In gangigen erwerbbaren Spracherkennungssystemen werden ausscfalieBIich sprachspezifische Modelle ver- 
wendet Zur Portierung dieser Systeme in eine neue Sprache werden umf angreiche Sprachdatenbanken gesam- 
melt und aufbereitet AnschlieBend werden die Lautmodelle fur die neue Sprache mh dies en gesammehen 
20 Sprachdaten von Grand auf neu trainiert 

Um den Aufwand und die Zeitverzdgerung bei der Portierung von Spracherkennungssystemen in unter- 
schiedliche Sprachen zu verringern, sollte also untersucht werden, ob einzelne Lautmodelle fur die Verwendung 
in verschiedenen Sprachen ge eigne t sind. Hierzu gibt es in [2] be re its Ansatze mehrsprachige Lautmodelle zu 
erstellen und diese bei der Spracherkennung in den jeweiligen Sprachen einzusetzen, Dort werden auch die 
25 Begriffe Poly- und Monophoneme eingefuhrt Wobei Polyphoneme Laute bedeuten, deren Lautbildungseigen- 
schaften uber mehrere Sprachen hinweg ahnlich genug sind, um gleichgesetzt zu werden. Mit Monophonemen 
werden Laute bezeichnet, welche sprachspezifische Eigenschaften aufweisen. Um fur solche Entwicklungsarbei- 
ten und Untersuchungen nicht jedesmal neue Sprachdatenbanken trainieren zu mussen, stehen solche schon als 
Standard zur Verfugung [6j [7], Ein weiterer Stand der Technik zur mehrsprachigen Verwendung von 
so LautmodeDen ist nicht bekannt 

Die der Erfindung zugnmdeliegende Aufgabe besteht demnach darin, ein Verfahren zur Mehrsprachenver- 
wendung eines hidden Markov LautmodeUes in ein em Spracherkennungssystem anzugeben, durch welches der 
Portierungsaufwand von Spracherkennungssystemen in eine andere Sprache minimi ert wird, indem die Parame- 
ter in einem mulrilingualen Spracherkennungssystem reduziert werden. 
35 Diese Aufgabe wird gemafi den Merkmalen der Patentanspruche 1 und 6 geldst 
Weiterbikiungen der Erfindung ergeben sich aus den abhnngigen Ansprachen. 

Ein besonderer VorteO des erfindungsgemaflen Verfahrens besteht darin, daB ein statistisches Ahnfichkeits- 
maB angegeben wird, welches es erlaubt aus einer gegebenen Anzahl von verschiedenen LautmodeDen fur 
ahnliche Laute in unterschiedlichen Sprachen dasjenige LautmodeU auszuw&bien, welches in seiner Charakteri- 
40 stik aue zur Verfugung stehenden Merkmalsvektoren der jeweiligen Laute am besten beschreibt 

Besonders vorteilhaft wird als Mafl fur die Auswahl des besten bidden Markov ModeOes fur unterschiedhche 
Lautmerkmalsvektoren der logarithmische Wahrscheinlichkeitsabstand zwischen den jeweiligen hidden Mar- 
kov Model! en und einem jeden Merkmalsvektor ermittelt Hierdurch wird ein Mafi zur Verfugung gestellt, 
welches experimenteDe Befunde bezugUch der Ahnlichkeit von einzelnen Lautmodellen und deren Erkennungs- 
45 ratenwiderspiegelt 

Besonders vorteilhaft wird als MaB fur die Beschreibung eines mSglichst reprSsentativen hidden Markov 
LautmodeUes nach der Erfindung der arithmetische Mirtelwert der logarithmischen Wahrscheinlichkeitsabstfin- 
de zwischen jedem hidden Markov ModeD und den jeweiligen Merkmalsvektoren gebfldet, da hierdurch ein 
symmetrischer Abstandswert erhalten wird. 
so Vorteilhaft wird das erfindungsgem&fie Beschreibungsmafi fur die representative Egenschaft eines hidden 
Markov Modells zur Beschreibung von Lauten in unterschiedlichen Sprachen dadurch gebfldet, dafi die erfuv 
dungsgemSBen Gleichungen 1 bis 3 angewendet werden. da hierdurch ein geringer Rechenaufwand entsteht 

Besonders vorteilhaft wird fur die erfindungsgemaBe Anwendung eines BeschreibungsrnaBes eine Schranken- 
bedingung vorgegeben, mh der eine Erkennungsrate des reprasenti erenden hidden Markov ModeUs eingesteUt 
55 werden kann. 

Besonders vorteilhaft wird durch das erfindungsgemaBe Verfahren der Speicheraufwand fQr eine Sprachbi- 
bliothek reduziert da ein ModeD fur mehrere Sprachen verwendet werden kann und ebenfaDs der Portierungs- 
aufwand von einer Sprache in die andere minimiert was einen reduziert en Zeitaufwand fur die Portierung 
bedingt Ebenso vorteilhaft wird ein geringerer Rechenaufwand bei der Viterbi-Suche ermogGcht, da beispiels- 

60 weise bei mehrsprachigen Eingabesystemen weniger Modelle Gberprflft werden mussen, 

Besonders vorteilhaft werden bei der Erfindung besondere hidden Markov ModeOe zur Verwendung in 
mehrsprachigen Spracherkennungssystemen generiert Durch die erfindungsgemaBe Vorgehensweise konnen 
hidden Markov Lautmodelle fur Laute in mehreren Sprachen zu PoIyphonem-ModeDen zusammengefaBt 
werden. Hierzu werden Oberlappungsbereiche der verwendeten StimdardwalirscbeinEchkeitsdichteverteilun- 

65 gen bei den unterschiedlichen Modellen untersucht Zur Beschreibung des Poryphonem - ModeD es kann eine 
beliebige Anzahl von identisch bei den unterschiedlichen ModeUen verwendeten Standardwahrschemlichkeits- 
dichteverteilungen herangezogen werden. ExperimenteDe Befunde haben gezeigt daB vorteflhaft auch mehrere 
Standardverteilungen aus unterschiedlichen SprachmodeDen verwendet werden konnen, ohne dafi die hierdurch 
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bewirkte Verwischung der einzelnen Sprachcharaktcristika zu ciner significant niedrigeren Erkennungsrate 
bcim Einsatz dieses Mod ells fuhren wurde. Als besonders vorteBhaft hat sich hier der Abstandsscbwellenwert 
funf zwischen ahnlichen StandardwahrschemlichkehsverteDungsdiditen bewfihrt. 

Besonders vorteilhaft werden beim Einsatz des erfindungsgemaBen Verfahrens die hidden Markov Modelle 
mit drei Zustanden aus Anlaut, MitteUaut und Ablaut modeffiert, da hierdurch eine hinreichende GenauigkeH bei 5 
der Beschreibung der Laute erzielt wird und der Rechenaufwand bei der Erkennung in einem Spracherkenner 
gering bleflrt. _ . 

Fig 1 zeigt dabei beispielhaft den Aufbau eines einzigen Multilingualen Phonemes- In diesem Fall 1st es das 
Phonem M was dargestellt wird Die Zahl der Wabrschdnlichkeitsdichten und die Erkennungsrate fur dieses 
Phonem sind in Tabeue 4 angegeben. » 



Thr . 


#densit <a,b,c) . 


Engl.[%] 


Germ.[%] 


Span . [%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72) 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 
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In Fig. 1 ist der Anlaut U der Mittel laut M und der Ablaut R des Phonem-Modelles dargestellt. FQr die 
unterschiedlichen Sprachen Englisch EN, Deutsch DE und Spanisch SP sind die Schwerpunkte der Wahrschein- 
lichkeitsdichtevertenungen der einzelnen verwendeten Standardwahrscheinlichkeitsdichten eingetragen und als 
WD gekennzeichnet Hier ist beispielsweise ein hidden Markov ModeD aus drei Teflzu st anden dargestellt. Die 
Erfindung soil jedoch nicht lediglich auf solche hidden Markov ModeUe beschrankt werden. obwohJ diese unter 
BerQcksichtigung des Kriteriums, das ein minimaler Rechenaufwand der Erkennung durchgefuhrt werden soD 
ein gewisses Optimum darstellen. Die Erfindung kann ebenso auf hidden Markov Modelle angewendet werden, 
die eine andere Anzahl von Zustanden aufweisen. Durch die Erfindung soil insbesondere erreicht werden. daB 
der Portierungsaufwand bei der Portierung von Spracherkennungssystemen in eine andere Sprache reduziert 
wird und daB die verwendeten Rechenressourcen durch Reduktion der zugrundeliegenden Parameter mdglichst 
gering gehalten werden. Beispielsweise kdnnen durch derartige Spracherkennungssysteme begrenzte Hardwa- 
reerfordernisse besser erfuUt werden, insbesondere wenn ein- und dasselbe Spracherkennungssystem fur Mehr- 
sprachenanwendung in einem Gerfit zurVerfugung gesteDt werden soU 

Zunachst sollte urn das Ziel der Erfindung zu erreichen, die Ahnlichkehen von Lauten in unterschiedlichen 
Sprachen auszuschdpfen und beim Modeffieren zu berucksichtigeo, beachtet werden. daB sich die Phoneme in 
verschiedenen Sprachen unterscheiden kOnnen. Die GrQnde hierfur best eh en vor alien Dingen in: 

— Unterschiedlichen phone tisch en Kontexten. wegen der unterschiedlichen Phonemsatze in den verschie- 
denen Sprachen; 

_ unterschiedlichen Sprechweisen; 

— verschiedenen prosodischen Merkmalen; 

— unterschiedlichen aHophonischen Variationen. 

Fin besonders wichtiger Aspekt, welcher dabei zu beriJcksichtigen ist, besteht im Prinzip der genttgenden 
wahrnehmungstechnischen Unterscheidbarkeit der Phoneme [5J. Dies bedeutet,daB einzelne Laute in verschie- 
denen Sprachen akustisch unterscheidbar gehalten werden, so daB es fur den einzelnen Zuh6rer leichter ist sie 
voneinander zu separieren. Da aber jede einzelne Sprache einen unterschiedlichen Phonemschatz hat, werden 
die Grenzen zwischen zwei annlichen Pfaonemen in jeder einzelnen Sprache sprachspezifisch festgelegt. Aus 
diesen GrOnden hat die Auspragung eines bestimmten Lautes eine sprachspezifische Komponente. 

Bevorzugt werden die Phoneme mittels kontinuierlichen dichten hidden Markov ModeQen (CD-HMM) 
modelliert [3} Als dichte Funktionen werden haufig Laplace-Mischungen benutzt Bevorzugt besteht dabei jedes 
einzelne Phonem aus drei Zustanden von links nach rechts gerichteten HMM. Die akustischen Merkmalsvekto- 
ren bestehen dabei beispielsweise aus 24 mel-skalierten cepstral, 12 deha cepstral, 12 delta delta cepstral, 
Energie, deha-Energie und deha delta-Energie-Koefnzienten. Beispielsweise wird als LSnge des Untersuchungs- 
zeitf ensters 25 ms gewihlt. wobei die Rahmenabstande 10 ms zwischen den einzelnen Rahmen betragen, Aus 
GrOnden der begrenzten GroBe des Sprachkorpus werden bevorzugt lediglich kontextunabhangige Phoneme 
generiert Als besonders reprasentatives Phoneminventar wurde jenes aus [4] gewahlt. 

Die Idee der Erfindung besteht dabei darin, daB zum einen ein AhnlichkehsmaB zur Verfugung gestellt wird, 
um a us standardmaBig verfugbaren Sprachphonemblbliotheken fur unterschiedliche Sprachen jenes hidden 
Markov Mod ell auswahlen zu konnen, welches den Merkmalsvektoren, die aus den unterschiedlichen Lautmo- 
deflen der unterschiedlichen Sprachen abgeleitet werden, am nachsten kommt Kerdurcb ist es mSglich, die 
Ahnlichkehen zweier Phonem-Modelle zu ermitteln und fiber dieses AhnBchkeitenmaB basierend auf der 
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Differenz der Log-Likelihood- Werte zwischcn den Lautreausierungen und LautmodeUen eine Aussage zu 
treffen, ob es sich lohnt, einen Laut fur mehrere Sprachen gemeinsam zu modellieren, bzw. em betreffendes 
schon best ehendes hidden Markov Model! fur die Modellierung des Lautes in mehreren Sprachen zu verwenden. 
Hierdurch wird die ZahJ der Parameter, welche bei der Spracherkennung zu berucksichtigen smd reduziert, 

5 indera die Zahl der zu untersucbenden hidden Markov Model] e reduziert wird. 

Elq zweiter Losungsansatz der Erfindung besteht darm, em spezielles Potyphonem-ModeD zur Modellierung 
ernes Lautes in mehreren Sprachen zu erstellen. Hierzu werden zunachst beispielsweise drei Lautsegmente, in 
Form eines Anlautes, MitteUautes und Ablaut es gebildet, deren Zustande a us mehreren WahrscheinHchkeits- 
dichtefunktionen den sogenannten MischverteQungsdlcbten mit den dazugehorigen Dichten bestehen. Diese 

jo Dichten der uber verschiedenen Sprachen ahnlichen Lautsegmente werden zu em em multilingualen Codebucb 
zusammengefafiL So mit teDen sich Lautsegmente verschiedener Sprachen die gleichen Dichten. WShrend das 
Codebucb. fur mehrere Sprachen gleichzeitig benutzt werden kann, werden beispielsweise die Gewichte, mit 
denen die Dichten gewichtet werden fur jede Sprache getrennt ennittelL 
Zur Bfldung eines geeigneten AhnKchkehsmafies werden bevorzugt hidden Markov ModeUe mh drei Zustan- 

15 den herangezogen. Das Abstands- oder Ahnlichkehsmafi kann dabei benutzt werden urn mehrere Phonem-Mo- 
delle zu einera multilingualen Phonem-Modell zusammenzufassen oder diese auf geeignete Weise zu ersetzen. 
Hierdurch kann ein mul tilin gualer Phonemschatz entwickelt werden. Bevorzugt wird zur Messung des Abstan- 
des bzw. zur Bestimmung der Ahnlichkeit von zwei Phonem-ModeDen des selben Lautes a us unterschiedlicben 
Sprachen eine MeBgrofie verwendet, welche auf der relativen Entropie basxert [11 Wahrend des Trainings 

20 werden dabei die Parameter der gemischten LaplacedichteverteDungen der Phonem-Modeue bestimmt Weher- 
hin wird fur jedes Phonem ein Satz von Phonemtokens X als Merkmalsvektor aus einem Test- oder Entwick- 
lungssprachkorpus extrahiert Diese Phoneme kdnnen dabei durch ihr international generates phonetisches 
Edkett markiert sein. GemaB der Erfindung werden zwei Phonem-Modelle 7* und Xj und ihre zugehorigen 
Phonemtoken Xi und Xj zur Bestimmung des Ahnlichkeitsmafies zwischen diesen unterschiedfichen Phonemen 

25 wie folgt behandelt 

^d-iogrXXiixo-iogpCXiiXj) (l) 

Dieses AbstandsmaB kann als Log- Likelihood- Abstand angesehen werden, welch er darsteDt wie gut zwei 
30 verschiedene ModeDe zu dem selben Merkmalsvektor Xi passen. Demgemafi wird der Abstand zwischen den 
beiden Modellen Xj und Xj gemifi: 

- togppCjJXi) ~ logpCXjjXO (2) 

35 bestimmt. Urn einen symmetrischen Abstand zwischen diesen beiden Phonem-ModeDen zu erhalten, wird dieser 
bevorzugt gemafi 

m d(X j ;X i ) = l(d(X l ,g+d(X J ;>. l )) (3) 

bestimmt. Anhand von experimentellen Befunden konnte festgesteDt werden, daB sich durchaus emige Phonem* 
Mod ell e aus anderen Sprachen besser fur die Verwendung in einem deutschen Spracherkennungssystem eignen, 

45 als ein deutsches Phonem- ModelL Beispielsweise gilt dies fur die Phoneme k, p und N. Fur diese Phoneme eignet 
sich das englische Phonem-Modell besser als das deutsche. Wahrend beispielsweise ein grofier Unterschied 
zwischen dem deutschen und dem englischen Modell fiber den Umlaut aU beobachtet wurde, was bedeutet, dafi 
fur beide Laute ein unterschiedliches Symbol im mululingualen Phonemschatz eingefuhrt werden soDte. Ande- 
rerseits konnte fur den Umlaut al im deutschen und im englischen eine groBe Ahnlichkeit festgestelh werden, das 

50 bedeutet, daB lediglich ein Phonem-ModeD fur beide Sprachen gleich gut Verwendung fmden kann. Ausgehend 
davon so lite fur jedes Symbol eines multSingualen Phonemschatzes ein separates statistisches Modell erzeugt 
werden. In [6] wurden Poryphoneme als solche Phoneme bezeichnet, die fihnlich genug smd, urn in verschiedenen 
Sprachen als ein einziges Phonem modelliert zu werden. Ein Nachtefl dieser Yorgehensweise besteht darin, daB 
fur die sprachspezifische Erkennung der voDstandige akustische Raum des Poryphonems verwendet wird. Die 

55 Erfindung hat es jedoch zum 71t\, die sprachabh&ngigen und die sprachspezinschen akustischen ttz*n*r*\nttmn 
eines multilingualen Mod ells zu kombmieren. GemaB der Erfindung so lien in einem Potyphonem-Modell solche 
Bereiche des akustischen Raumes eingegrenzt werden, in denen sich die verwendeten WahrschemEchkeHsdich- 
ten der einzelnen Phoneme uberlappen. Hierzu wird z. B. eine gruppierende Verdichtungstechnik (agglommera- 
tive density clustering technique) eingesetzt, um gleiche oder ahnOche AusprSgungen eines Phonems zu reduzie- 

60 rea Besonders wichtig ist es dabei zu beachten, dafi ledigfich die Dichten der korrespomuerenden Zustande der 
einzelnen hidden Markov ModeDe in den Phonemen zusammengefaBt werden durfen. 

In Fig. 1 ist dabei zu erkennen, dafi die jeweulgen Dichten fur die einzelnen Zustande L, M und R in den 
eingegrenzten Regionen en thai ten smd. Wahrend idendsche Dichten fiber die einzelnen Sprachen EN, DE, und 
SP verteilt sind, variieren die Mischungsgewichte sprachabhangig. Bei dieser Bewertung soDte jedoch aucfa 

65 berOcksichtigt werden, dafi spezifische Auspragungen eines Phonems in verschiedenen Sprachen in unterschied- 
licher Haufigkeit auftre ten- 
Die 7jt^flmmpnfa^ur'g der unterschiedlichen Wahrscheinfichkeitsdichten kann dabei mit einem unterschiedli- 
chen AbstandsschweUenwert fur die Wahrschemfichkeitsdichten bei der Dichtehaufung (density clustering) 
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durchgefOhrt werden. Beispielsweise wurde mit e in era AbstandsschweDenwert von flmf die Zahl dcr verwende- 
teo Dichten urn einen Faktor 3 gegenuber dem Ausgangszustand reduziert, ohne dami t eine entscfaeidende 
Verschlechterung bei der Spracberkennungsrate einher ging. In diesem Fall wurden 221, 48 und 72 von den 
urspriingtichen 341 Ausgangsdichten fur jeweils die Polyphonem-Region, die Zweisprachen-Region und die 
Einsprachen-Region zusammengefafit In Fig. 1 ist eine solche Polyphonemregion ais Schnittmenge der Kreise s 
fur die einzelnen Sprachen dargesteDt Beim Mittellaut M des dargesteOten hidden Markov Modells ist beispiels- 
weise eine Wahrscheinlichkeitsdichte in einer solchen Region als WDP bezeichnet. Die Erkennungsraten fur ein 
komplettes multfllnguales Spracherkennungssystem sind dabei in Spalte 4 und 5 der TabeOe 2 ais ML1 und ML2 
angegeben. 



Language 


# Tokens 


LDP[%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


German 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



Wahrend bei der ersten Untersuchung ML1 die konventionelle Poryphonem-Definhion a us [6] verwendet 
wurde, was bedeutet, daB der komplette akustiscbe Bereich des Polyphonem- Modells bestehend aus der auBeren 
Kontur der Sprachbereiche in Fig. 1, fur die Erkennung verwendet wurde, benutzt die erfindungsgemaBe 
Methode Iediglicfa einen Teilbereich daraus. Indem die teilweise Oberlappung der einzelnen Sprachbereiche fur 25 
die einzelne ModeDierung des Polyphonem-Modells herangezogen wird, ist beispielsweise eine Verbesserung 
von 2% erzielbar, wie dies in Tabelle 2 in der Spalte fur ML2 dargesteDt ist 
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Patentanspruche 

45 

1. Verfahren zur Mehrsprachen Verwendung eines hidden Markov LautmodeDes in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mind es tens einem ersten Merkmalsvektor fur einen ersten Laut (IJMJR) in 
einer ersten Sprache (SP,EN,DE) und von mindestens einem zweiten Merkmalsvektor fur einen ver- 
gleichbar gesprochenen zweiten Laut in mindestens einer zweiten Sprache (DEJSP,EN) und deren so 
zugehorigen ersten und zweiten hidden Markov Lautmodellen, ermittelt wird welches der beiden 
hidden Markov Lautmodelle (UMJt) beide Merkmalsvektoren besser beschreibt, 

b) und bei dem dieses hidden Markov Lautmodell (UMJl) fur die ModeDierung des Lautes in minde- 
stens beiden Sprachen (SP^NJDE) verwendet wird 

2. Verfahren nach Anspruch 1, bei dem als Mafi fur die Beschreibung eines Merkmalsvektors durch ein $5 
hidden Markov Lautmodell (U*1R) der logarithmische Wahrscheinlichkehsabstand als log likelihood dist- 
ance zwischen jedem hidden Markov Lautmodell und mindestens einem Merkmalsvektor gebfldet wird, 
wobei eine kflrzerer Abstand eine bessere Beschreibung bedeutet. 

3. Verfahren nach Anspruch 2, bei dem als MaS fur die Beschreibung der Merkmalsvektoren durch die 
hidden Markov Lautmodelle der arithmensche Mittelwert der logarithmischen Wahrscheinlichkeitsabstan- 60 
de bzw. der log likelihood distances zwischen jedem hidden Markov Lautmodell (UMJl) und jedem 
jeweiligen Merkmalsvektor gebDdet wird, wobei eine kQrzerer Abstand eine bessere Beschreibung bedeu- 
tet 

4. Verfahren nach Anspruch 3, bei dem das erste hidden Markov Lautmodell (LAIR) von einem Phonem Xi 
und das zweite hidden Markov Lautmodell von einem Phonem Xj verwendet wird und bei dem als erste und 65 
zweite Merkmalsvektoren Xi und Xj verwendet werden, wobei der logarithmische Wahrscheinlichkehsab- 
stand zum ersten Merkmalsvektor gem&B 
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d^-IogpCXM-logppCiJXj) (1) 

bestimmt wird und der logarithmische Wahrscheinlichkeitsabstand zum zwehen Merkmalsvektor gemaB 
d(X^i) - log ppQfc) - iog ppCjfo) (2) 

bestimmt wird, wobei zur Erzielung ernes symmetrischen AbstandsmaBes der arithmetisdie Mittchvert zu 

d(X j a i ) = |(d(X l ,X J )+d(^;X i )) (3) 



5. Verf ahren nach Anspruch 4, bei dem dieses hidden Markov Lautmodell (L^iR) fur die ModeDierung des 
Lautes in mindestens beiden Sprachen nur verwendet wird, falls d(Xj;Aj) eine festgelegte Schrankenbcdin- 
gung erfuHt. 

6. Verf ahren zur Mehrsprachenverwendung eines hidden Markov Lautmodell es in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mindestens einem ersten hidden Markov Lautmodell OUMJl) fur einen 
ersten Laut in einer ersten Sprache (SP,EN,X>E) und von mindestens einem zwehen hidden Markov 
Lautmodell (L»MJl) fur einen vergleichbar gesprochenen zweiten Laut in mindestens einer zwehen 
Sprache (DE^PJEN), ein Poly Phonem Modell derart gebDdet wird. dafi die fur die ModeDierung des 
ersten und zweiten hidden Markov LautmodeDes (UMJR) verwendeten Standardwahrscheinlichkerts- 
verteflungen (WD) bis zu einem festgelegten Abstandsschwellenwert. der angibt bis zu welchem 
maximalen Abstand zwischen zwei StandardwanrscheinUchkeitsverteilungen (WD) diese zusammen- 
gefftgt werden so lien zu jeweils einer neuen StandardwahrscheinlichkeitsverteQung (WDP) zusammen- 
gefugt werden und lediglich die zusammengefugten StandardwahrscheinHchkeitsverteilungen das Poly 
Phonem Modell charakterisieren 

b) und bei dem dieses Poly Phonem Modell fur die ModeUierung des Lautes in mindestens beiden 
Sprachen (DEJSP,EN) (LMJl) verwendet wird. 

7. Verf ahren nach Anspruch 6, bei dem als AbstandsschweDenwert 5 festgelegt wird. 

8. Verf ahren nach einem der vorangehenden AnsprQche bei dem hidden Markov LautmodeDe mh drei 
Zustanden verwendet werden, welche a us den Lautsegmenten Anlaut, MitteUaut und Ablaut gebOdet 
werden. 
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